flink 流批

一年省七位数，得物自建HFDS在 Flink Checkpoint 场景下的应用实践

1、背景随着阿里云Flink实例的迁移下云以及新增需求接入，自建Flink平台规模逐渐壮大，当前总计已超4万核运行在自建的K8S集群中，然而Flink任务数的增加，特别是大状态任务，每次Checkpoint时会产生脉冲式带宽占用，峰值流量超过100Gb/s，早期使用阿里云OSS作为Checkpoint数据存储，单个Bucket每1P数据量只有免费带宽10Gb/s，超出部分单独计费，当前规模每月需要增加1xw+/月。为了控制这部分成本，得物开展了自建HDFS在FlinkCheckpoint场景下的落地工作，实现年度成本节省xxx万元。此次分享自建HDFS在实时计算checkpoint场景的实践经

位数 Checkpoint 数据 data 集群存储数据管理 HFDS Flink 存储系统

Flink 消费Kafka每日不定时积压（非重启不能解决）问题排查解决

1.背景接手了一个问题排查的工作，有个Flink任务每天不定时会出现数据积压，无论是白天还是数据量很少的夜里，且积压的数据量会越来越多，得不到缓解，只能每日在积压告警后重启，重启之后消费能力一点毛病没有，积压迅速缓解，然而，问题会周而复始的出现，无论是周末还是节假日，忍不了2.现象 1.当积压时，最明显的是kafka积压不断升高 2.FlinkProcessFunction（主要处理逻辑）中多个代码块处理时间变长为了定位问题，在processFunction多个代码块加了处理时间的计算，结果发现，无论是简单的json处理部分还是与外部Redis，Mysql

解决排查 xff0c xff0 xff kafka flink java

【Flink系列】查看Flink版本的命令，常用命令

1.如何查看安装的Flink的版本？使用cd命令，进入Flink的安装目录的bin目录下，执行一下命令： ./flink -v2.查看Flink运行的job情况也是在安装目录bin目录下，执行命令： ./flink list 20220411补充：3.Flink停止/启动操作进入flink的安装目录：./bin/stop-cluster.sh ##停止./bin/start-cluster.sh ##启动后续更新。。。。

命令 Flink 目录 xff 安装 linux 大数据 flink常用命令

实时数仓建设第2问：怎样使用flink sql快速无脑统计当天下单各流程（已发货，确认收货等等）状态的订单数量

实时统计当天下单各流程状态(已支付待卖家发货，卖家通知物流揽收，待买家收货等等)中的订单数量。订单表的binlog数据发送到kafka,flink从kafka接受消息进行指标统计。因为每笔订单的状态会发生变化，比如上午为【已支付待卖家发货】，这个时候【已支付待卖家发货】指标数要+1，下午订单的状态变更为【卖家通知物流揽收】，这个时候【卖家通知物流揽收】指标数要+1，而【已支付待卖家发货】指标数要-1。如果采用Java代码编程，那么需要深入理解业务考虑每种状态变更，编写大量if逻辑稍有遗留就会统计错误结果。但是如果使用flinksql是不是就不需要考虑这些业务问题了？要想使得selectorde

收货下单 xff0c xff0 xff flink sql 数据库

大数据之使用Flink消费Kafka中topic为ods_mall_data的数据，根据数据中不同的表将数据分别分发至kafka的DWD层

目录前言题目：一、读题分析二、处理过程三、重难点分析总结前言本题来源于全国职业技能大赛之大数据技术赛项赛题-电商数据处理-实时数据处理注：由于设备问题，代码执行结果以及数据的展示无法给出，可参照我以往的博客其中有相同数据源展示题目：提示：以下是本篇文章正文内容，下面案例可供参考（使用Scala语言编写）一、读题分析涉及组件：Scala，Flink，Kafka，json涉及知识点：Flink处理数据Flink1.14新特性json文件的处理二、处理过程 --代码仅供参考--importorg.apache.flink.api.common.eventtime.WatermarkStrat

数据分发 xff xff0c xff0 kafka 大数据 flink scala spark

基于 Flink CDC 的现代数据栈实践

摘要：本文整理自阿里云技术专家，ApacheFlinkPMCMember&Committer,FlinkCDCMaintainer徐榜江和阿里云高级研发工程师，ApacheFlinkContributor&FlinkCDCMaintainer阮航，在FlinkForwardAsia2022数据集成专场的分享。本篇内容主要分为四个部分：1.深入解读FlinkCDC2.3版本2.基于FlinkCDC构建现代数据栈3.阿里云内部实践和改进4.Demo&未来规划一、深入解读FlinkCDC2.3版本1.1FlinkCDC首先介绍一下FlinkCDC技术。FlinkCDC是基于数据库的日志CDC技术，实

基于实践 xff0c xff0 数据 flink 大数据数据库云计算

Flink的安装与配置（集群版）（保姆级教程）

Flink简述：Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink安装前准备工作：1、使用xftp将Flink安装包上传到虚拟机中flink-1.10.0-bin-scala_2.11.tgz可以去国内镜像下载，也可以去apacheflink官网下载Flink安装操作步骤：1、解压缩文件tar-zxfflink-1.10.0-bin-scala_2.11.tgz-C../soft/2、为了方便以后使用，将解压缩后的文件夹修改名字mvflink-1.10.0/flink3、选择性配置环境变量vim/etc/profile#FLINK_HOMEexportFLI

集群保姆 span code class flink

Flink Sql(二) Kafka连接器

Kafka连接器在TableAPI和SQL编写的Flink程序中，可以在创建表的时候用WITH子句指定连接器（connector），这样就可以连接到外部系统进行数据交互了。架构中的TableSource负责从外部系统中读取数据并转换成表，TableSink则负责将结果表写入外部系统。在Flink1.13的API调用中，已经不去区分TableSource和TableSink，我们只要建立到外部系统的连接并创建表就可以，Flink自动会从程序的处理逻辑中解析出它们的用途。Flink的TableAPI和SQL支持了各种不同的连接器。当然，最简单的其实就是连接到控制台打印输出：CREATETAB

连接器连接 span class token kafka flink sql

在IDEA本地开发时Flink CDC和Flink的guava版本冲突解决办法

目录1.冲突原因2.解决办法1.冲突原因使用FlinkCDC2.2.0版本的时候，会报ThreadFactoryBuilder这个类找不到的错误，如下所示：java.lang.NoClassDefFoundError:org/apache/flink/shaded/guava18/com/google/common/util/concurrent/ThreadFactoryBuilder因为FlinkCDC使用的是guava版本是18.0-13.0，如下所示：org.apache.flinkflink-shaded-guava18.0-13.0而Flink1.14.4使用的guava版本是30

Flink guava connector INFO IDEA flink CDC 版本冲突解决

在IDEA本地开发时Flink CDC和Flink的guava版本冲突解决办法

Flink guava connector INFO IDEA flink CDC 版本冲突解决

113 114 115116117 118 119